什么年代了还在用Nerf/Gaussian？视频扩散模型通向生成式新视点渲染

朱智宇 PaperWeekly

2024-08-23

©PaperWeekly 原创 · 作者 | 朱智宇

单位 | 香港城市大学博士

研究方向 | 计算机视觉

论文标题：

NVS-Solver: Video Diffusion Model as Zero-Shot Novel View Synthesizer

论文链接：

https://arxiv.org/abs/2405.15364

Github链接：

https://github.com/ZHU-Zhiyu/NVS_Solver

研究目的与结果展示

通过利用预训练的大型视频扩散模型的强大生成能力，我们提出了 NVS-Solver，这是一种新的视角合成（NVS）范式，它在操作时无需训练。NVS-Solver 能够根据给定的视图自适应地调节扩散采样过程，从而从静态场景的单一或多个视图，或动态场景的单目视频中创造出令人瞩目的视觉体验。

具体而言，基于我们的理论建模，我们通过迭代调节得分函数，并用变形的输入视图表示给定场景先验，以控制视频扩散过程。此外，通过理论上探索估计误差的边界，我们根据视图姿态和扩散步骤的数量以自适应的方式进行调节。在静态和动态场景上的广泛评估证实了我们的 NVS-Solver 在定量和定性上都显著优于现有的最先进方法。

接下来我们首先展示，不同环境下的 NVS 渲染结果。首先为基于单图（single-view）的新视点合成。（请关注下图水面的非朗博反射）

同时对于 monocular video，NVS-Solver 也可以生成惊艳的新视点渲染效果。

本文贡献主要聚焦于以下几个方面：

我们提出了一种利用预训练的视频扩散模型的无需训练的新视角合成范式；
我们从理论上构建了自适应利用给定场景信息以控制视频扩散过程的方法；
我们展示了我们的范式在各种场景下显著的性能表现。

方法

2.1基础知识

我们首先快速讲解一下关于 diffusion 的基础知识（详情可见 song yang 大神的一系列论文，与知乎的各路讲解）。

diffusion model 前向为如下公式，其中为 drift 与 diffusion 系数

反向过程如下

使用可学习的 score function 来估计数据梯度我们可以得到

由于当前性能比较突出的 diffusion model 为 stability AI 推出的 SVD，我们基于其 variance exploding（VE）的特性，得到以下 reverse process 的 ODE formulation。并且我们接下来的分析将基于以下 formulation。

2.2 调制NVS导向的Diffusion Score Function

针对 video diffusion，我们分解每一帧（其中表示 diffusion 的 step，表示某一帧的 pose）的 diffusion 过程如下

其中为网络从 noised latent 中得到的对某一帧的期望，是 score function 中可学习的部分，也是我们接下来建模的关键。OK，得出 diffusion 过程关于不同 pose（也就是 frame）的 formulation 之后，我们再来看下，如何借助已知 view 的信息来辅助修正 score function。这里我们借助到 intensity function 的泰勒展开来关联 target view 和 given views 。

其中表示 intensity function，代表不同 pose 下观察空间某点的亮度值。由于不同 pose 下同一空间点在 pixel 空间的投影位置不同，我们利用如下 warp function 可以的到已知 view 在下的投影。其中为相机参数矩阵，代表深度值，为已知像素坐标。

但是真实深度往往不好获得，我们于是再次展开 warp function，得到利用估计深度的如下表示：

其中估计项，为对应误差项。在得到 warp 估计项后我们开始进行 score function 的调制，特指其可学习部分 Eq.（6）的或者 Eq.（7）的。我们将某个 view 的期望表示为两个 terms 组合，其中为组合权重。

能够非常简单地得到：

根据如何将

的信息注入到 noise latent，我们提出两种 NVS-Solver 的变体：

NVS-Solver（GDS）直接替代到 Eq.（7）中进行 diffusion

NVS-Solver（Post）后验采样，利用梯度使用的信息

至此，我们初步完成了 NVS-Solver 的框架，但是其中还有一个问题亟待解决就是的确定。

2.3 确定

我们通过 minimize 整个系统的误差来确定的解析式，这里我们假定为 optimal 的 value，这里我们可以得到误差的上限为如下表达式

由于具体的误差比较难求，我们退而求其次，一个比较好的策略应该有尽量小的误差期望。

其中，最后一项为正则化项防止误差 overfitting 到我们 empirically estimated 误差期望上面。接着我们继续分析误差项和的特性。对于 diffusion 误差项，相关工作证实在噪声相对较大时，score function 会有比较剧烈的变化。同时在高噪声区域，网络也很难直接预测高质量的图像（当然我们暂时不讨论 recertified flow 和 consistency model 这类）。

所以我们认为误差期望是与噪声强度成正比的。同时对于 intensity 函数截断误差，其与相同，如公式 10 所示。在忽略高阶项后，其中变量只有（其中对于某一场景是固定的）。这样我们假设的期望正比于。

根据我们上面的误差分析和实验验证，误差项和有如上特性。我们最后可以得到的表达式：

其中为比例系数，则其闭式解为：

消融实验

这里我们进行消融实验，可以看到所提出的方案确实可以减小 warp 的误差第一二四场景（ in Eq.10）和非朗博反射体现在 intensity 的展开项的第三场景（ in Eq.10）（更多的对比试验请见论文）。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

继续滑动看下一个

PaperWeekly

向上滑动看下一个

从来就不缺傻子！

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

这一刻，快乐被具象化了

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

周一004 意甲帕尔马VS卡利亚里【全网最强分析】今日继续拿捏主任！跟上吃肉！昨日推荐早场全收，今日8000倍直接做胆！

什么年代了还在用Nerf/Gaussian？视频扩散模型通向生成式新视点渲染

您可能也对以下帖子感兴趣

从来就不缺傻子！

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

这一刻，快乐被具象化了

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

周一004 意甲 帕尔马VS卡利亚里 【全网最强分析】今日继续拿捏主任！跟上吃肉！昨日推荐早场全收，今日8000倍直接做胆！

生成图片，分享到微信朋友圈

什么年代了还在用Nerf/Gaussian？视频扩散模型通向生成式新视点渲染

您可能也对以下帖子感兴趣

周一004 意甲帕尔马VS卡利亚里【全网最强分析】今日继续拿捏主任！跟上吃肉！昨日推荐早场全收，今日8000倍直接做胆！